English

四库光盘:中国古籍电子化的里程碑

1999-07-13 来源:光明日报 本报记者 余传诗 我有话说

经过京、港、沪三地专家学者的共同努力,上海人民出版社与香港迪志文化有限公司于近日正式推出国家九五光盘出版重点项目——文渊阁《四库全书》电子版。这是迄今为止世界上最大的一项电子出版工程。3462种、79300余卷、约8亿字的《四库全书》浓缩在100多张光盘里。专家们说,《四库全书》电子版的研制成功标志我国中文信息处理技术实用化有了重大突破,为进一步开发传统文化信息资源扫清了障碍。

古籍工作者跨世纪的课题

我们的祖先创造了灿烂辉煌的传统文化。浩若烟海的古代典籍就是传统文化的载体。历经漫长岁月,古文献的亡失相当严重,但据近年的整理统计,我国现存古籍的数量仍在7万种左右。

党和政府历来十分重视古籍的整理、保护、开发和利用。早在1981年国务院就专门成立了全国古籍整理规划小组。据统计,1982年—1990年全国古籍整理工作者共完成4000余种古籍的整理和点校,至今编成索引的古籍已达一二百种,成绩斐然,但步履十分艰难。究其原因,无论古籍的整理还是研究,主要依赖手工作业方式。有人作了统计,按这种传统方式整理古籍,整理完毕所有古籍需几百年。

本世纪六十年代以来,以计算机引领的信息技术革命席卷全球。如今,数字化、多媒体化、网络化越来越成为信息资源的主流,中国的传统典籍能否实现数字化,中国古籍的整理和研究能否适应信息时代科学研究的新方式,这关系到中国传统文化能否在今天更好地发扬光大。

80年代以来,国内外包括我国港台地区学者开始把计算机技术引进到古籍整理和研究中,收到了意想不到的效果。但是,他们在把纸质文献转换成计算机可以处理的数字文献时,无一例外地采用人工输入的方法,不仅费时耗工,而且错漏难免。现有电脑的标准字符集只有20902个汉字,要实现古籍全文数字化还远远不够,简单地套用繁简代换、异体代换,不仅会丢失原有文献的一些信息,还可能使文献的内容失真。

适合古籍整理研究的大字符集以及古籍汉字自动录入技术成为影响中国古籍数字化进程的两大难题。

攻克古籍全文数字化的瓶颈

1994年,北京书同文电脑开发有限公司的总监张轴材完成《汉语大字典》光盘版的开发制作后,这位长期从事汉字国际标准化推广工作的高级工程师决心再去挑战一套有代表性的、大型古籍丛书。此时,远在南方的香港迪志文化有限公司董事长余志明也正在为中国古籍数字化进程的缓慢而感慨万分。余志明决定投资《四库全书》电子版的开发。当迪志公司总经理李超伦在国内物色技术开发合作伙伴时遇见了张轴材,两人一拍即合。上海人民出版社也积极支持和参与这项文化工程的筹划,京、港、沪三地专家很快达成合作协议。

90年代以来,中华典籍数字化的崇高目标激励了一大批学者和工程技术人员投入相关领域的研究和开发,也取得了一些成果,如河北大学研制成功的古籍印刷汉字识别系统,对再版已经标注过的古籍录入比较有效。而《四库全书》79300多卷古籍却全部是由当年雇用的4000多名抄写手抄写,如何开发针对这么多抄写手的识别系统呢?

书同文公司了解到清华大学人工智能研究所的一项研究成果:非特定人手写古籍汉字识别技术,便与该所密切合作,进行面向《四库全书》的再开发,在经过上亿字字迹的积累,经过筛选、校对和净化,形成了有7000多汉字的多种笔迹的识别字典,终于开发出能够用于工程规模的“多特定人准规范手写古籍汉字识别系统”。正是在综合运用了中文信息技术的各项前沿成果,他们相继开发出了精密的校对平台、跨平台、跨语境的全球版产品制作技术,并形成了在国际标准框架内定义的、适合古籍整理与研究的3万汉字的大字符集。

经过整整三年的艰苦努力,《四库全书》电子版在保持原书真迹的基础上,用汉字自动识别技术实现了全文检索版的制作,为我国传统信息资源实现数字化取得了突破性进展。

喜看老树抽新枝

1998年初,当国内三家单位同时研制《四库全书》电子版的消息传出以后,社会上引起强烈反响,围绕“四库全书该不该出光盘”的问题,学术界展开了激烈的争论。

一些学者指出,《四库全书》电子版是首次将我国成系列、大规模、具有代表性的文献资源数字化,开发《四库全书》电子版实为占领古籍数字化领域制高点。

在北京海淀区《四库全书》工程中心,记者看到,文渊阁《四库全书》470万页原书图文已经以扫描方式录入为数码图像,“多特定人手写准规范古籍汉字识别系统”对图像进行识别转换为电脑编码字符,原文图像与电脑识别结果一一对照,200位录校员在各自的电脑前顺序浏览校对,整个过程一气呵成。工程负责人告诉记者,一个普通工作人员校对量可达每小时2万字,一天12万字;古籍汉字识别速度则达到每秒钟22个字。据测算,如果采用键盘录入和人工校对,《四库全书》8亿字的录入与校对,约需2000人/年以上。

最值得一提的是,中国古籍无论是过去的刻本,还是新近整理的古籍印本,都缺乏索引,特别是内容索引和主题索引,更谈不上全文索引,这已成为制约我国古籍学术研究发展的一个重要因素。而今,《四库全书》电子版首次实现了书名、著者、类目和全文中的字、词、语等多途径检索。读者可以进行单项检索,也可以多项检索。一般情况下,一次检索5秒钟便可获得结果;阅读时,又可随意在电脑上作阅读笔记,可摘录检索到的有关内容,或编排下载、打印;电子版《四库全书》还挂接了扩充的电子工具书,如对某些字义不明确,可点击《中华古汉语字典》,对某个作者或某部作品不熟悉,可点击《四库大字典》或《四库简明目录》,有关的解说便会立即显示其旁,解释中的内容还可以再检索,由表及里,由此及彼。

今天,当你坐在电脑前,对《四库全书》电子版进行具体操作时,当年那场争论可能带给你的疑惑不仅烟消云散,还会让你切身体验《四库全书》电子版的神奇与高效,体会到《四库全书》电子版已不再只是纸张版的简单电子拷贝,它是在电子平台上,运用网络技术、数据库技术和现代检索技术的重新加工和组合,它必将会推动我国古籍整理与研究向纵深发展。

手机光明网

光明网版权所有

光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

光明网版权所有